上次說到 MLL 與最小化相對熵是等價的
首先先來說說 MLL
以下文章內含推導、公式
若有不適請盡速關閉網頁或直接跳過~XD
一個似然方程 的意思是
在已知觀察點集合 D 的情況下,模型參數是 的機率
這可以等價於
如果模型參數是 時
模型可以產生出觀察點集合 D 的機率
我們的目標就是要找一個模型參數 使它的似然方程最大
也就是要做
推導過程就不說了,請看剖析深度學習(3),我們自動快轉
我們可以得到目標式
計算 max 時
對原是加減任一定值,都不影響計算max
對原式乘或除一個正數,都不影響計算 max
若對原式乘或除一個負數,可將計算 max 改為計算 min
我們刻意的對原式乘
則原式變為
也就是 的平均值!!
然後當數據量夠多時,根據大數法則: 期望值 平均值
把如上的平均值換成期望值
(這稱為交叉熵,cross entropy)
!!!
這不就是 相對熵 的前半段嗎?
由於後半段給定觀察數據後就不再改變,是個定值
所以計算 的最小值
等價於計算相對熵的最小值
流程就是...
Likelihood function(由於樣本i.i.d.,運算是相乘) → log Likelihood function(取對數,運算變相加)
→ max LL (找造成觀測集最大機率的參數) → 乘 -1 除 len(D) (max 變 min,原式變平均)
→ 大數法則(平均變期望值,此時是交叉熵) → 加上信息熵(由於是定值,不影響結果,原式變相對熵)
總結:max LL → min 相對熵,結束 :)
前次也說過相對熵越小代表與真實函數越接近
所以 MLL 就是在找假設分配下最好的參數設定
也可由此得證
所以如:AIC、BIC等
以 MLL 為基礎的模型分數
也可以更合理的被我們使用了
接下來會再說說
什麼是向前特徵選擇(Forward Selection)、向後特徵選擇(Backward Selection)、逐步特徵選擇(Stepwise Selection)
並說明如何決定是否納入一個特徵